Neteja de dades

La neteja de dades (en anglès data cleaning o data scrubbing) és l'acció o treball de descobriment, correcció i/o eliminació de registres de dades errònies d'una taula o d'una base de dades. El procés de neteja de dades permet identificar dades incompletes, incorrectes, inexactes, no pertinents, etc. i després substituir, modificar o eliminar aquestes dades brutes ("data duty").

Inici i final d'un procés de neteja de dades.
Inici i final d'un procés de neteja de dades.

Aquest procés és una part crucial de l'anàlisi de dades, especialment quan es recopilen dades quantitatives.

Després de la neteja, la base de dades podrà ser compatible amb altres bases de dades similars d'un sistema.

Les inconsistències descobertes, modificades o eliminades en un conjunt de dades, poden ser per causa de les definicions de diccionari de dades diferents d'entitats similars, els errors d'entrada de l'usuari i la corrupció en el moment de la transmissió o l'emmagatzematge.

La neteja de dades es diferencia de la validació de dades en el fet que gairebé sempre compleix la funció de rebutjar els registres erronis durant l'entrada al sistema, i no en lots de data. El procés de neteja de dades inclou la validació i, a més, la correcció de dades per tal d'assolir dades de qualitat.


© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search